Lire le tableau dans le document
Cet exemple de code montre comment utiliser le moteur OCR IronTesseract pour extraire du texte et des données de tableau d'un document PDF.
- Une instance du moteur OCR
IronTesseractest créée. - Un objet
OcrInputest initialisé, et un fichier PDF (" table.pdf ") est chargé à l'aide de la méthodeLoadPdf. - Le moteur OCR traite le document en utilisant la méthode
ReadDocumentAdvanced, qui renvoie un objetOcrResultplus détaillé. - Le premier tableau trouvé dans le document est accessible en utilisant
result.Tables.First(), et les informations de cellule de ce tableau sont extraites avecCellInfos. - La liste des données de cellule (
cellList) contient maintenant les cellules du tableau, y compris le contenu textuel et d'autres détails (par exemple, la position de la cellule, la taille). - Cette méthode est utile pour extraire des données structurées comme des tableaux à partir de fichiers PDF, permettant d'accéder et de traiter par programmation le texte contenu dans chaque cellule du tableau.
Découvrez comment lire les tableaux dans les fichiers PDF avec IronOCR.

